Search CORE

66 research outputs found

Corpus study of kidney-related experimental data in scientific papers

Author: Grau Brigitte
Ligozat Anne-Laure
Minard Anne-Lyse
Publication venue: HAL CCSD
Publication date: 18/09/2009
Field of study

International audienceThe Quantitative Kidney DataBase (QKDB) is relational database that was created in order to centralize kidney-related experimental results. Each result is characterized by different attributes and the scientific paper from which it was extracted. Currently, this database isp opulated by hand by experts of the domain. We present a corpus study of some papers that have already been analyzed in order to exhibit the specificities and difficulties of the extraction process; then we propose a first solution to extract automatically the desired knowledge from papers

HAL Evry

Extraction de relations en domaine de spécialité

Author: GRAU Brigitte
MINARD Anne-Lyse
Publication venue
Publication date: 01/01/2012
Field of study

La quantité d'information disponible dans le domaine biomédical ne cesse d'augmenter. Pour que cette information soit facilement utilisable par les experts d'un domaine, il est nécessaire de l'extraire et de la structurer. Pour avoir des données structurées, il convient de détecter les relations existantes entre les entités dans les textes. Nos recherches se sont focalisées sur la question de l'extraction de relations complexes représentant des résultats expérimentaux, et sur la détection et la catégorisation de relations binaires entre des entités biomédicales. Nous nous sommes intéressée aux résultats expérimentaux présentés dans les articles scientifiques. Nous appelons résultat expérimental, un résultat quantitatif obtenu suite à une expérience et mis en relation avec les informations permettant de décrire cette expérience. Ces résultats sont importants pour les experts en biologie, par exemple pour faire de la modélisation. Dans le domaine de la physiologie rénale, une base de données a été créée pour centraliser ces résultats d'expérimentation, mais l'alimentation de la base est manuelle et de ce fait longue. Nous proposons une solution pour extraire automatiquement des articles scientifiques les connaissances pertinentes pour la base de données, c'est-à-dire des résultats expérimentaux que nous représentons par une relation n-aire. La méthode procède en deux étapes : extraction automatique des documents et proposition de celles-ci pour validation ou modification par l'expert via une interface. Nous avons également proposé une méthode à base d'apprentissage automatique pour l'extraction et la classification de relations binaires en domaine de spécialité. Nous nous sommes intéressée aux caractéristiques et variétés d'expressions des relations, et à la prise en compte de ces caractéristiques dans un système à base d'apprentissage. Nous avons étudié la prise en compte de la structure syntaxique de la phrase et la simplification de phrases dirigée pour la tâche d'extraction de relations. Nous avons en particulier développé une méthode de simplification à base d'apprentissage automatique, qui utilise en cascade plusieurs classifieurs.The amount of available scientific literature is constantly growing. If the experts of a domain want to easily access this information, it must be extracted and structured. To obtain structured data, both entities and relations of the texts must be detected. Our research is about the problem of complex relation extraction which represent experimental results, and detection and classification of binary relations between biomedical entities. We are interested in experimental results presented in scientific papers. An experimental result is a quantitative result obtained by an experimentation and linked with information that describes this experimentation. These results are important for biology experts, for example for doing modelization. In the domain of renal physiology, a database was created to centralize these experimental results, but the base is manually populated, therefore the population takes a long time. We propose a solution to automatically extract relevant knowledge for the database from the scientific papers, that is experimental results which are represented by a n-ary relation. The method proceeds in two steps: automatic extraction from documents and proposal of information extracted for approval or modification by the experts via an interface. We also proposed a method based on machine learning for extraction and classification of binary relations in specialized domains. We focused on the variations of the expression of relations, and how to represent them in a machine learning system. We studied the way to take into account syntactic structure of the sentence and the sentence simplification guided by the task of relation extraction. In particular, we developed a simplification method based on machine learning, which uses a series of classifiers.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

OpenGrey Repository

Feature selection for drug-drug interaction detection using machine-learning based approaches

Author: Grau Brigitte
Ligozat Anne-Laure
Makour Lamia
Minard Anne-Lyse
Publication venue: HAL CCSD
Publication date: 01/09/2011
Field of study

International audienceThis paper describes the systems developed for the DDI Extraction challenge. The systems use machine learning methods and are based on SVM by using LIBSVM and SVMPerf tools. Classical features and corpus-specific features are selected according to their F-score. The best system obtained an F-measure of 0.5965

HLT-FBK: a Complete Temporal Processing System for QA TempEval

Author: Minard Anne-Lyse
Mirza Paramita
Publication venue
Publication date: 01/01/2015
Field of study

The HLT-FBK system is a suite of SVMs-based classification models for extracting time expressions, events and temporal relations, each with a set of features obtained with the NewsReader NLP pipeline. HLT-FBK’s best system runs ranked 1st in all three domains, with a recall of 0.30 over all domains. Our attempts on increasing recall by considering all SRL predicates as events as well as utilizing event co-reference information in extracting temporal links result in significant improvements

Crossref

Archivio della ricerca - Fondazione Bruno Kessler

FBK-HLT-time: a complete Italian Temporal Processing system for EVENTI-Evalita 2014

Author: Minard Anne-Lyse
Mirza Paramita
Publication venue
Publication date
Field of study

In this paper we present an end-to-end system for temporal processing of Italian texts based on a machine learning approach, specifically supervised classification. The system participated in all subtasks of the EVENTI task at Evalita 2014 (identification of time expressions, events, and temporal relations), including the pilot task on historical texts

Archivio della ricerca - Fondazione Bruno Kessler

Apport de la syntaxe pour l’extraction de relations en domaine médical

Author: Grau Brigitte
Ligozat Anne-Laure
Minard Anne-Lyse
Publication venue: HAL CCSD
Publication date: 27/06/2011
Field of study

National audienceDans cet article, nous nous intéressons à l’identification de relations entre entités en domaine de spécialité, et étudions l’apport d’informations syntaxiques. Nous nous plaçons dans le domaine médical, et analysons des relations entre concepts dans des comptes rendus médicaux, tâche évaluée dans la campagne i2b2 en 2010. Les relations étant exprimées par des formulations très variées en langue, nous avons procédé à l’analyse des phrases en extrayant des traits qui concourent à la reconnaissance de la présence d’une relation et nous avons considéré l’identification des relations comme une tâche de classification multi-classes, chaque catégorie de relation étant considérée comme une classe. Notre système de référence est celui qui a participé à la campagne i2b2, dont la F-mesure est d’environ 0,70. Nous avons évalué l’apport de la syntaxe pour cette tâche, tout d’abord en ajoutant des attributs syntaxiques à notre classifieur, puis en utilisant un apprentissage fondé sur la structure syntaxique des phrases (apprentissage à base de tree kernels) ; cette dernière méthode améliore les résultats de la classification de 3%

Extraction de résultats expérimentaux d’articles scientifiques pour le peuplement d’une base de données

Author: Grau Brigitte
Ligozat Anne-Laure
Minard Anne-Lyse
Publication venue: HAL CCSD
Publication date: 01/06/2010
Field of study

National audienceQKDB (Quantitative Kidney DataBase) est une base de données relationnelle créée pour centraliser les résultats d'expérimentation sur le rein parus dans des articles scientifiques. Chaque résultat est caractérisé par différents attributs. Actuellement cette base de données est alimentée manuellement par des experts du domaine, et vérifiée par un curateur. Nous présentons dans cet article une solution pour extraire automatiquement les connaissances désirées des articles qui procède en deux étapes : annotation automatique des documents et proposition de celles-ci pour validation ou modification via une interface

Simplification de phrases pour l’extraction de relations

Author: Grau Brigitte
Ligozat Anne-Laure
Minard Anne-Lyse
Publication venue: HAL CCSD
Publication date: 01/06/2012
Field of study

National audienceL’extraction de relations par apprentissage nécessite un corpus annoté de très grande taille pour couvrir toutes les variations d’expressions des relations. Pour contrer ce problème, nous proposons une méthode de simplification de phrases qui permet de réduire la variabilité syntaxique des relations. Elle nécessite l’annotation d’un petit corpus qui sera par la suite augmenté automatiquement. La première étape est l’annotation des simplifications grâce à un classifieur à base de CRF, puis l’extraction des relations, et ensuite une complétion automatique du corpus d’entra\ⁱnement des simplifications grâce aux résultats de l’extraction des relations. Les premiers résultats que nous avons obtenus pour la tâche d’extraction de relations d’i2b2 2010 sont très encourageant

From Text to Knowledge with Graphs: modelling, querying and exploiting textual content

Author: Alves Mirian Halfeld Ferrari
Forst Anne-Lyse Minard
Vargas-Solar Genoveva
Publication venue
Publication date: 09/10/2023
Field of study

This paper highlights the challenges, current trends, and open issues related to the representation, querying and analytics of content extracted from texts. The internet contains vast text-based information on various subjects, including commercial documents, medical records, scientific experiments, engineering tests, and events that impact urban and natural environments. Extracting knowledge from this text involves understanding the nuances of natural language and accurately representing the content without losing information. This allows knowledge to be accessed, inferred, or discovered. To achieve this, combining results from various fields, such as linguistics, natural language processing, knowledge representation, data storage, querying, and analytics, is necessary. The vision in this paper is that graphs can be a well-suited text content representation once annotated and the right querying and analytics techniques are applied. This paper discusses this hypothesis from the perspective of linguistics, natural language processing, graph models and databases and artificial intelligence provided by the panellists of the DOING session in the MADICS Symposium 2022

arXiv.org e-Print Archive

Event Factuality in Italian: Annotation of News Stories from the Ita-TimeBank

Author: Marchetti Alessandro
Minard Anne-Lyse
Speranza Manuela
Publication venue
Publication date: 01/01/2014
Field of study

In this paper we present ongoing work devoted to the extension of the Ita-TimeBank (Caselli et al., 2011) with event factuality annotation on top of TimeML annotation, where event factuality is represented on three main axes: time, polarity and certainty. We describe the annotation schema proposed for Italian and report on the results of our corpus analysis

Archivio della ricerca - Fondazione Bruno Kessler